4.2.3 온디바이스 AI와 엣지 컴퓨팅: 대역폭, 지연 시간(Latency), 그리고 프라이버시를 위한 로컬 추론 가속화

1. 서론: 연결성의 위기와 로컬 인텔리전스의 필연성

로봇 공학의 패러다임이 중앙 집중형 클라우드 제어에서 분산형 엣지 인텔리전스로 급격하게 이동하고 있다. 지난 10년 간 ’클라우드 로보틱스(Cloud Robotics)’는 로봇 개체가 가진 하드웨어의 물리적 제약을 극복할 유일한 대안으로 여겨졌다. 무한에 가까운 클라우드의 컴퓨팅 자원을 활용함으로써, 로봇은 복잡한 SLAM(Simultaneous Localization and Mapping), 대규모 객체 인식, 그리고 최근의 거대 언어 모델(LLM) 기반 추론까지 수행할 수 있게 되었다.1 그러나 로봇이 통제된 실험실 환경을 벗어나 예측 불가능한 야생(Wild)의 환경—통신 음영 지역이 존재하는 재난 현장, 전파 간섭이 심한 스마트 팩토리, 그리고 민감한 개인 공간인 가정—으로 진입함에 따라, 클라우드 의존형 아키텍처는 심각한 물리적, 보안적 한계에 봉착했다.

본 장에서는 ’온디바이스 AI(On-Device AI)’와 ’엣지 컴퓨팅(Edge Computing)’이 단순한 기술적 선택지가 아니라, 차세대 로봇 시스템의 생존을 위한 필수 요건임을 논증한다. 특히 대역폭(Bandwidth)의 물리적 한계, 실시간 제어를 위협하는 지연 시간(Latency), 그리고 데이터 주권과 관련된 프라이버시(Privacy) 문제를 해결하기 위한 기술적 아키텍처와 최적화 방법론을 심층적으로 분석한다. 우리는 NVIDIA Jetson Thor와 같은 최신 하드웨어 가속기부터 NanoVLA와 같은 경량화된 신경망 아키텍처, 그리고 R3와 같은 온디바이스 학습 시스템에 이르기까지, 로봇의 ’뇌’를 엣지로 옮기는 과정에서 발생하는 공학적 도전과 혁신을 포괄적으로 다룰 것이다.

1.1 클라우드 로보틱스의 붕괴 지점: 대역폭과 비용의 역설

현대 로봇은 ’데이터를 소비하는 기계’에서 ’데이터를 생산하는 기계’로 진화했다. 자율주행 차량이나 고도화된 서비스 로봇에 장착된 센서들은 폭발적인 양의 데이터를 생성한다. 예를 들어, 단일 로봇에서 생성되는 HD 비디오 스트림 하나만 해도 8Mbps 이상의 업링크 대역폭을 요구하며, 여기에 3D LiDAR 포인트 클라우드와 고주파수 IMU 데이터가 더해지면 요구 대역폭은 기하급수적으로 증가한다.2

문제는 네트워크 인프라가 이러한 데이터 폭증을 감당하지 못한다는 점이다. 특히 다수의 로봇이 협업하는 군집 로봇(Swarm Robotics) 시나리오나 수백 대의 로봇이 가동되는 물류 창고에서는 네트워크 혼잡(Congestion)이 필연적으로 발생한다. 연구에 따르면, 네트워크 혼잡 상황에서 클라우드로 전송되는 센서 데이터의 수신율은 송신량의 16% 수준까지 급락할 수 있다.2 이는 로봇의 인지(Perception) 능력 상실을 의미하며, 자율주행 차량이나 협동 로봇과 같이 안전이 중요한(Safety-critical) 시스템에서는 용납될 수 없는 위험이다.

또한, 클라우드 서비스 구독료와 데이터 전송 비용은 로봇 시스템의 총 소유 비용(TCO)을 급격히 상승시키는 요인이 된다.1 모든 원본 데이터(Raw Data)를 클라우드로 보내는 대신, 로컬에서 데이터를 전처리하고 의미 있는 정보만을 추출하여 전송하는 엣지 컴퓨팅 모델은 대역폭 사용량을 90% 이상 절감할 수 있는 경제적 해결책을 제시한다.3

1.2 실시간성의 물리학: 100ms의 장벽

로봇 제어 이론에서 지연 시간(Latency)은 시스템의 안정성을 해치는 가장 큰 적이다. 자율주행 차량이 고속 주행 중 장애물을 회피하거나, 산업용 로봇이 인간 작업자의 돌발 행동에 반응하기 위해서는 감지부터 행동까지의 시간(Motion-to-Photon Latency)이 극도로 짧아야 한다. 일반적으로 안전이 중요한 애플리케이션은 50ms 미만의 응답 속도를 요구하며, 고속 매니퓰레이션의 경우 10ms 미만의 제어 주기가 필요하다.3

그러나 클라우드 기반 처리 방식은 데이터의 왕복 시간(RTT)과 클라우드 서버의 대기열 처리 시간으로 인해 구조적인 지연을 발생시킨다. 조지아 대학의 연구에 따르면, 클라우드에 의존한 기본 컴퓨터 비전 작업만으로도 평균 150~200ms의 지연이 발생할 수 있다.3 이는 ‘감지-판단-행동(Sense-Plan-Act)’ 루프의 붕괴를 초래하며, 급변하는 환경에서 로봇의 대응 능력을 현저히 떨어뜨린다. 엣지 컴퓨팅은 연산 노드를 로봇 내부(On-board) 또는 로컬 네트워크의 엣지(Fog node)로 가져옴으로써 이러한 물리적 지연을 최소화한다. 이는 5G와 같은 초저지연 통신 기술이 도입되더라도 해결하기 어려운 물리적 거리의 제약과 네트워크 변동성(Jitter)을 근본적으로 해결하는 방안이다.4

2. 엣지 AI 하드웨어 아키텍처: 실리콘 위의 로봇 두뇌

온디바이스 AI의 실현은 범용 CPU(Central Processing Unit)의 한계를 넘어선 특수 목적 하드웨어 가속기의 발전과 궤를 같이한다. 로봇의 폼팩터는 배터리 용량과 방열 설계에 제약이 있으므로, 성능(Performance)뿐만 아니라 전력 효율성(Performance per Watt)이 핵심 지표가 된다. 본 절에서는 현재 로봇 공학계를 주도하는 주요 엣지 컴퓨팅 플랫폼의 아키텍처를 심층 분석한다.

2.1 NVIDIA Jetson 플랫폼: GPU 중심의 슈퍼컴퓨팅

NVIDIA의 Jetson 시리즈는 로봇 공학 분야에서 사실상의 표준(De facto standard)으로 자리 잡은 엣지 AI 플랫폼이다. 단순한 임베디드 보드를 넘어, 데이터 센터급의 GPU 아키텍처를 소형 모듈에 통합하여 ’로봇을 위한 슈퍼컴퓨터’를 구현하고 있다.

2.1.1 Jetson AGX Orin: Ampere 아키텍처의 정점

Jetson AGX Orin은 현재 상용화된 가장 강력한 로봇용 컴퓨터 중 하나로, NVIDIA의 Ampere GPU 아키텍처를 기반으로 한다. 최대 275 TOPS(Trillion Operations Per Second, INT8 기준)의 AI 연산 성능을 제공하며, 이는 이전 세대인 Xavier 대비 8배 향상된 수치이다.6

아키텍처: 2048개의 CUDA 코어와 64개의 Tensor 코어를 탑재하여, CNN(Convolutional Neural Networks) 및 트랜스포머 모델의 추론을 가속한다.
CPU: 12코어 Arm Cortex-A78AE 프로세서를 채택하여, 실시간성이 중요한 로직 처리와 인터럽트 핸들링 성능을 강화했다.8
메모리: 64GB의 LPDDR5 메모리와 204.8 GB/s의 대역폭을 제공하여, 고해상도 이미지 버퍼링과 대규모 모델 가중치 로딩 시 병목을 최소화했다.6

2.1.2 Jetson Thor: 휴머노이드를 위한 Blackwell의 도약

NVIDIA는 최근 휴머노이드 로봇과 생성형 AI 구동에 특화된 차세대 플랫폼인 Jetson Thor를 공개했다. 이는 최신 Blackwell GPU 아키텍처를 기반으로 하며, 로봇이 단순한 인지를 넘어 복잡한 추론과 자연어 처리를 수행하는 ‘물리적 AI(Physical AI)’ 시대를 겨냥한다.9

압도적 성능: Jetson Thor는 FP8 정밀도 기준으로 무려 2,070 TFLOPS의 성능을 발휘한다. 이는 Orin 대비 AI 연산 성능이 7.5배 이상 향상된 것이며, 전력 효율성 또한 3.5배 개선되었다.11
트랜스포머 엔진(Transformer Engine): LLM 및 VLA(Vision-Language-Action) 모델의 핵심인 트랜스포머 연산을 하드웨어적으로 가속하는 전용 엔진을 탑재했다. 이는 로봇이 사람의 명령을 자연어로 이해하고 즉각적으로 행동을 생성하는 데 필수적이다.
MIG(Multi-Instance GPU): 하나의 GPU를 여러 개의 인스턴스로 분할하여, 시각 처리, 경로 계획, 음성 인식 등 서로 다른 성격의 워크로드를 격리된 환경에서 병렬로 처리할 수 있게 한다. 이는 로봇 시스템의 안전성과 안정성을 높이는 핵심 기능이다.12

2.2 Qualcomm Robotics 플랫폼: 이기종 컴퓨팅과 DSP의 진화

Qualcomm은 모바일 프로세서 시장에서의 지배력을 바탕으로 로봇 시장에 진출했으며, CPU, GPU, DSP, ISP 등 다양한 처리 장치를 하나의 SoC에 통합하는 이기종 컴퓨팅(Heterogeneous Computing) 전략을 취한다. 이는 전력 소비에 극도로 민감한 드론이나 소형 모바일 로봇에 최적화되어 있다.

2.2.1 Hexagon DSP와 텐서 가속기

Qualcomm 아키텍처의 차별점은 **Hexagon DSP(Digital Signal Processor)**에 있다. 초기에는 오디오나 통신 신호 처리를 위해 설계되었으나, 현재는 AI 추론을 위한 고효율 NPU(Neural Processing Unit)로 진화했다.

VLIW 아키텍처: Hexagon은 VLIW(Very Long Instruction Word) 아키텍처를 기반으로 하여, 컴파일러 단계에서 명령어 병렬성을 최적화함으로써 하드웨어 복잡도를 낮추고 전력 효율을 극대화했다.13
HVX (Hexagon Vector eXtensions): 이미지 처리와 컴퓨터 비전 워크로드를 위해 1024비트 벡터 연산을 지원한다. 이를 통해 CPU 부하를 줄이면서도 고속의 영상 전처리가 가능하다.
HTA (Hexagon Tensor Accelerator): 딥러닝 연산의 핵심인 행렬 곱셈을 가속하기 위한 전용 하드웨어 블록으로, 스칼라, 벡터, 텐서 유닛이 융합된 구조를 통해 와트당 성능을 극대화한다.15

2.2.2 RB5 및 RB6 플랫폼

Robotics RB5: QRB5165 프로세서를 기반으로 하며, 15 TOPS의 AI 성능을 제공한다. 이는 드론이나 중소형 AMR(Autonomous Mobile Robot)의 비전 처리에 적합하다.16
Robotics RB6: 최신 프리미엄 플랫폼으로, AI 성능을 70~200 TOPS로 대폭 끌어올렸다. 5G 통신 모듈을 기본 통합하여 엣지와 클라우드의 하이브리드 연결성을 강화했으며, 최대 24개의 카메라 스트림을 동시에 처리할 수 있는 강력한 ISP를 갖추고 있다.17

2.3 특수 목적 AI 가속기: Hailo와 Horizon Robotics

범용 SoC 외에도 특정 AI 아키텍처에 특화된 가속기들이 틈새시장을 공략하고 있다.

Hailo-8: 이스라엘의 AI 칩 스타트업 Hailo가 개발한 이 칩은 데이터플로우(Dataflow) 아키텍처를 채택했다. 기존 폰 노이만 구조의 메모리 병목 현상을 해결하기 위해, 신경망의 구조를 하드웨어적으로 모사하여 데이터가 칩 내부의 연산 유닛을 흐르듯이 처리되도록 설계했다. 결과적으로 2.5W의 낮은 전력으로 26 TOPS라는 놀라운 효율을 달성했으며, 라즈베리 파이와 같은 저성능 호스트에 M.2 모듈 형태로 추가하여 강력한 AI 성능을 부여할 수 있다.20
Horizon Robotics Journey 시리즈: 중국의 자율주행 칩 선두주자인 Horizon Robotics는 독자적인 BPU(Brain Processing Unit) 아키텍처를 개발했다. Journey 5 칩은 128 TOPS의 성능을 제공하며, 베이지안(Bayesian) 추론에 최적화된 설계를 통해 자율주행차의 인지 및 판단 능력을 지원한다. 최근 발표된 Journey 6 시리즈는 트랜스포머 모델 가속을 위한 ‘Nash’ 아키텍처를 도입하여 560 TOPS까지 성능을 확장했다.23

2.4 표 4.2.3-1: 주요 엣지 AI 하드웨어 플랫폼 비교 분석

플랫폼	제조사	주요 아키텍처	AI 성능 (최대)	전력 효율 (추정)	주요 타겟 및 특징	관련 참조
Jetson AGX Thor	NVIDIA	Blackwell GPU, Arm Neoverse	2070 TFLOPS (FP4)	High	휴머노이드, 생성형 AI, 트랜스포머 엔진 탑재	9
Jetson AGX Orin	NVIDIA	Ampere GPU, Arm Cortex-A78AE	275 TOPS (INT8)	Medium	고성능 자율주행, AMR, DLA 탑재	6
Robotics RB6	Qualcomm	Hexagon DSP, Adreno GPU	70-200 TOPS	Very High	5G 통합 드론, 배달 로봇, 이기종 컴퓨팅	17
Hailo-8	Hailo	Dataflow Architecture	26 TOPS	Ultra High	엣지 박스, 임베디드 애드온 (M.2)	20
Journey 5	Horizon	BPU (Bayesian/Bernoulli)	128 TOPS	High	자율주행 ADAS (중국 시장 중심)	23

3. 소프트웨어 가속 프레임워크와 컴파일러 전쟁

하드웨어의 잠재력을 100% 끌어내기 위해서는 소프트웨어 스택의 최적화가 필수적이다. 딥러닝 모델(PyTorch, TensorFlow 등으로 작성된)을 엣지 디바이스의 기계어로 변환하는 과정에서 컴파일러와 런타임 엔진의 역할은 결정적이다.

3.1 TensorRT vs Apache TVM: 성능과 유연성의 대결

로봇 개발자들은 하드웨어 종속적인 고성능 라이브러리와 하드웨어 중립적인 오픈 소스 컴파일러 사이에서 선택을 강요받는다.

NVIDIA TensorRT: NVIDIA GPU에 특화된 고성능 추론 SDK이다. 학습된 모델을 가져와서 레이어 융합(Layer Fusion), 커널 오토 튜닝(Kernel Auto-tuning), 정밀도 보정(Calibration) 등의 최적화를 수행한다. 특히 GPU의 메모리 계층 구조를 완벽하게 이해하고 최적화된 커널을 생성하기 때문에, NVIDIA 하드웨어에서는 타의 추종을 불허하는 성능을 보여준다. 예를 들어, Jetson AGX Orin에서 YOLO 모델을 구동할 때 PyTorch 네이티브 실행 대비 수 배 빠른 처리 속도와 낮은 지연 시간을 보장한다.27
Apache TVM: 다양한 하드웨어 백엔드(CPU, GPU, DSP, NPU 등)를 지원하는 엔드투엔드 딥러닝 컴파일러 스택이다. TVM의 강점은 **자동 튜닝(AutoTVM)**에 있다. 머신러닝을 사용하여 하드웨어 특성에 맞는 최적의 연산자 구현을 탐색한다. Qualcomm Hexagon DSP나 ARM CPU와 같이 TensorRT가 지원하지 않거나 최적화가 덜 된 하드웨어에서 탁월한 성능을 발휘한다. 또한, 마이크로컨트롤러(MCU)를 위한 MicroTVM은 메모리가 극도로 제한된 환경(수 KB RAM)에서도 AI 모델을 구동할 수 있게 해준다.27
비교 분석: 연구 결과에 따르면, NVIDIA 플랫폼에서는 TensorRT가 가장 높은 처리량(Throughput)을 보이지만, 모델의 이식성(Portability)과 다양한 하드웨어(Qualcomm, Intel 등)를 혼용하는 환경에서는 TVM이 더 유리한 선택지가 된다.30

3.2 ROS 2 하드웨어 가속: ISAAC ROS와 NITROS

로봇 운영체제(ROS 2) 환경에서 엣지 AI를 통합할 때 가장 큰 병목은 노드 간 데이터 전송에서 발생한다. 센서 데이터가 CPU 메모리에서 GPU 메모리로 복사되고, 처리된 결과가 다시 CPU로 돌아오는 과정(Memory Copy)은 상당한 지연을 유발한다.

NVIDIA ISAAC ROS: NVIDIA는 ROS 2 생태계에 하드웨어 가속을 도입하기 위해 ISAAC ROS GEMs(GPU Accelerated packages)를 제공한다. 이는 SLAM, 3D 재구성, 객체 인식과 같은 핵심 로봇 기능을 GPU 최적화 라이브러리(CUDA, cuDNN)로 구현한 패키지 모음이다.31
NITROS (NVIDIA Isaac Transport for ROS): ISAAC ROS의 핵심 기술인 NITROS는 **타입 적응(Type Adaptation)**과 타입 협상(Type Negotiation) 기능을 통해 노드 간 제로 카피(Zero-Copy) 전송을 구현한다. 호환되는 노드끼리는 GPU 메모리 포인터만 교환함으로써 데이터를 복사하지 않고 파이프라인을 통과시킨다. 이를 통해 이미지 처리 파이프라인의 속도를 비약적으로 향상시킬 수 있다.33
Qualcomm Robotics ROS: Qualcomm 역시 RB5/RB6 플랫폼을 위한 ROS 2 패키지를 제공하며, Adreno GPU와 Hexagon DSP를 활용한 이미지 파이프라인 가속을 지원한다. 특히 DMA 버퍼를 활용한 제로 카피 전송을 통해 CPU 부하를 최소화하고 400% 이상의 성능 향상을 달성한 사례가 보고되었다.35

4. 모델 경량화 및 알고리즘 최적화: VLA 시대를 대비하며

하드웨어의 발전 속도보다 AI 모델의 크기 증가 속도가 더 빠르다. 특히 최근 로봇 제어의 트렌드인 VLA(Vision-Language-Action) 모델은 수십억 개의 파라미터를 가지므로, 이를 엣지 디바이스에 구겨 넣기 위한 극단적인 다이어트가 필요하다.

4.1 양자화(Quantization): 정밀도와 성능의 줄타기

양자화는 모델의 가중치와 연산을 표현하는 비트 수를 줄여 메모리 대역폭을 절약하고 연산 속도를 높이는 기술이다.

INT8 및 FP4: 전통적인 FP32(32비트 부동소수점) 대신 INT8(8비트 정수)을 사용하는 것이 일반적이며, 최신 Jetson Thor와 같은 하드웨어는 FP4(4비트)까지 지원한다. 이는 모델 크기를 1/4에서 1/8로 줄일 수 있다.37
QAT (Quantization-Aware Training): 단순히 학습된 모델을 양자화하면 정확도가 급격히 떨어질 수 있다(특히 제어 정밀도가 중요한 로봇에서). QAT는 학습 과정에서 양자화 노이즈를 시뮬레이션하여, 낮은 정밀도에서도 강건한 모델을 만든다.38 연구에 따르면 QAT를 적용한 ResNet-50 모델은 정확도 손실 없이 4배의 속도 향상을 달성했다.39

4.2 가지치기(Pruning)와 지식 증류(Distillation)

구조적 가지치기(Structured Pruning): 신경망에서 기여도가 낮은 뉴런이나 채널을 통째로 제거한다. 비정형 가지치기(Unstructured Pruning)가 하드웨어 가속이 어려운 반면, 구조적 가지치기는 GPU의 병렬 연산 효율을 그대로 유지하면서 모델을 작게 만든다. GPT 모델에 구조적 가지치기와 지식 증류를 함께 적용하여 엣지 디바이스에서 추론 지연 시간을 300ms대로 낮춘 연구 결과가 있다.40
지식 증류: 거대하고 똑똑한 ‘교사(Teacher)’ 모델(예: GPT-4, Llama-3 70B)의 출력을 작고 빠른 ‘학생(Student)’ 모델(예: MobileNet, TinyLlama)이 모방하도록 학습시킨다. 이를 통해 로봇은 엣지 디바이스의 제약 속에서도 거대 모델의 추론 능력을 일부 상속받을 수 있다.41

4.3 엣지 VLA 최적화: NanoVLA와 EdgeVLA

범용 모델 최적화를 넘어, 로봇 제어에 특화된 VLA 모델의 경량화 연구가 활발하다.

NanoVLA: 기존 VLM들이 시각과 언어 정보를 초기에 융합(Early Fusion)하여 무거운 연산을 수행하는 것과 달리, NanoVLA는 후기 융합(Late Fusion) 전략을 취한다. 또한, 행동을 하나씩 생성하는 것이 아니라 여러 단계의 행동을 한 번에 예측하는 청킹(Chunking) 기법을 통해 추론 빈도를 줄인다. 실험 결과, Jetson Orin Nano에서 OpenVLA 대비 최대 52배 빠른 추론 속도를 기록했다.43
EdgeVLA (EVLA): 트랜스포머 모델의 가장 큰 병목인 자귀회귀(Autoregressive) 디코딩을 제거했다. 엔드 이펙터(로봇 손)의 위치 좌표를 토큰 단위로 순차 예측하는 대신, 한 번에 전체 좌표를 회귀(Regression)하도록 구조를 변경하여 7배 이상의 속도 향상을 이루었다.44
LightDP (Diffusion Policy): 확산 모델(Diffusion Model) 기반의 제어 정책은 높은 성능을 보이지만 연산량이 많다. LightDP는 디노이징(Denoising) 네트워크를 압축하고 샘플링 단계를 줄여 모바일 디바이스에서도 실시간 동작이 가능하도록 했다.46

5. 온디바이스 학습과 적응형 시스템

진정한 자율 로봇은 공장에서 출하된 상태로 머무르는 것이 아니라, 운용 환경에 맞춰 스스로 학습하고 진화해야 한다. **온디바이스 학습(On-Device Training)**은 통신이 단절된 상황에서도 로봇이 새로운 환경에 적응할 수 있게 한다.

5.1 R3 시스템: 실시간 온디바이스 강화학습

강화학습(RL)을 엣지 디바이스에서 수행하는 것은 메모리와 연산 시간의 싸움이다. 학습 데이터(Experience Replay Buffer)를 저장할 메모리가 부족하고, 학습 연산이 제어 루프의 실시간성을 방해할 수 있다.

R3 (Real-time On-device RL) 시스템은 이러한 문제를 해결하기 위해 제안되었다.

동적 배치 사이징(Dynamic Batch Sizing): 시스템의 부하 상태와 마감 시간(Deadline)을 모니터링하여 학습 배치 크기를 동적으로 조절한다. 여유가 있을 때는 많이 학습하고, 바쁠 때는 적게 학습하여 실시간성을 보장한다.
메모리 관리: 중요도가 낮은 데이터를 선별적으로 삭제하거나 압축하여 제한된 메모리 내에서 리플레이 버퍼를 최대화한다.
성과: 다양한 하드웨어 플랫폼(Jetson 등)에서 R3 시스템은 메모리 부족(OOM) 오류 없이 일관된 지연 시간을 유지하며 학습을 수행함을 입증했다.48

5.2 평생 학습(Continual Learning)과 파국적 망각 방지

로봇이 새로운 작업(Task B)을 학습할 때 기존에 학습한 작업(Task A)을 잊어버리는 **파국적 망각(Catastrophic Forgetting)**은 온디바이스 학습의 난제이다.

리플레이 기반 방법(Replay-based Methods): 과거 데이터의 일부(Representative samples)를 저장해두고, 새로운 데이터를 학습할 때 섞어서 학습시킨다. 메모리 제약이 심한 엣지 환경에서는 NCM(Nearest Class Mean) 분류기와 같은 경량화된 기법을 결합하여 효율성을 높인다.51
뉴로모픽 접근: 인텔의 Loihi와 같은 뉴로모픽 칩을 활용한 SNN(Spiking Neural Networks)은 생물학적 뇌와 유사하게 시냅스 가소성을 조절하여 에너지 효율적으로 평생 학습을 수행할 수 있는 잠재력을 보여준다.53

6. TinyML: 마이크로컨트롤러 위에서의 지능

모든 로봇이 고성능 GPU를 탑재할 수는 없다. 간단한 센서 처리나 모터 제어를 담당하는 MCU(Microcontroller Unit) 레벨에서도 AI를 구동하려는 TinyML 움직임이 활발하다.

초소형 추론: 수십 KB의 RAM을 가진 아두이노나 ESP32와 같은 칩에서 동작하는 AI 모델이다. 예를 들어, 가속도 센서 데이터를 분석하여 모터 베어링의 고장을 진단하거나, 저해상도 카메라로 간단한 제스처를 인식하여 로봇 팔을 제어하는 데 사용된다.54
프레임워크: TensorFlow Lite for Microcontrollers, Edge Impulse 등이 대표적이며, 모델을 C++ 라이브러리로 변환하여 베어메탈(Bare-metal) 환경에서도 실행 가능하게 한다.56 이는 로봇의 말초 신경계에 지능을 부여하여 중앙 프로세서의 부하를 줄이고 반응 속도를 높이는 역할을 한다.

7. 프라이버시 보호와 보안 아키텍처

가정용 서비스 로봇이나 의료 로봇은 사용자의 가장 사적인 공간에 침투한다. 카메라와 마이크로 수집된 데이터가 클라우드로 전송되는 과정은 해킹과 유출의 위험에 노출되어 있다. 온디바이스 AI는 ’데이터 국지화(Data Localization)’를 통해 이러한 문제를 원천적으로 봉쇄한다.

7.1 연합 학습(Federated Learning): 프라이버시를 지키는 집단 지성

개별 로봇이 수집한 민감 데이터(환자 정보, 집안 구조 등)를 공유하지 않으면서도, 전체 로봇 네트워크의 지능을 향상시키기 위해 연합 학습(FL)이 도입되고 있다.

작동 방식: 로봇은 로컬 데이터로 모델을 학습시키고, 학습된 모델의 **업데이트(기울기, 가중치 변화량)**만을 중앙 서버로 보낸다. 서버는 이를 취합(Aggregation)하여 글로벌 모델을 업데이트하고 다시 배포한다. 원본 데이터는 절대 로봇을 떠나지 않는다.
보안 기술: 업데이트 정보만으로도 원본 데이터를 유추하는 공격을 막기 위해 **차분 프라이버시(Differential Privacy)**나 동형 암호(Homomorphic Encryption) 기술이 결합된다.
사례: 수술 로봇 분야에서 FDRL(Federated Deep Reinforcement Learning) 프레임워크를 적용하여, 병원 간 환자 데이터 공유 없이도 수술 정밀도를 높이고 프라이버시 유출 위험을 60% 감소시킨 연구 결과가 있다.57 스마트 팩토리의 HRC(Human-Robot Collaboration) 시나리오에서도 연합 학습은 데이터 주권을 지키며 협업 효율을 높이는 핵심 기술로 평가받는다.59

7.2 하드웨어 보안: Root of Trust

소프트웨어적 보호뿐만 아니라, 하드웨어 레벨의 보안도 강화되고 있다. Qualcomm RB6와 같은 플랫폼은 TrustZone과 같은 보안 실행 환경(TEE)과 하드웨어 Root of Trust를 제공한다. 이는 부팅 단계에서부터 펌웨어의 무결성을 검증하고, 생체 정보나 암호화 키와 같은 중요 데이터를 일반 OS가 접근할 수 없는 격리된 공간에 저장하여 로봇의 물리적 탈취나 해킹 시도에도 데이터를 안전하게 보호한다.18

8. 결론: 클라우드-엣지 연속체(Cloud-Edge Continuum)를 향하여

온디바이스 AI와 엣지 컴퓨팅은 클라우드 로보틱스의 종말을 의미하지 않는다. 오히려 클라우드의 무한한 자원과 엣지의 즉각적인 반응성이 유기적으로 결합된 **‘클라우드-엣지 연속체’**로의 진화를 예고한다.

역할 분담: 클라우드는 대규모 데이터의 장기 저장, 고성능 모델의 사전 학습, 그리고 여러 로봇 간의 글로벌 지식 공유를 담당한다. 엣지(로봇)는 실시간 인지, 즉각적인 제어 판단, 그리고 개인화된 학습을 담당한다.
기술적 융합: NVIDIA Jetson Thor와 같은 강력한 하드웨어, NanoVLA와 같은 효율적인 모델, R3와 같은 적응형 학습 시스템, 그리고 연합 학습과 같은 프라이버시 보호 기술이 결합됨으로써, 로봇은 비로소 통신이 끊긴 고립된 환경에서도 지능적으로 행동하고, 연결되었을 때는 더욱 똑똑해지는 진정한 자율성을 획득하게 될 것이다.

우리가 집필 중인 서적의 이 장은 로봇이 단순히 명령을 수행하는 기계에서, 스스로 판단하고 학습하며 사용자의 프라이버시를 존중하는 지능형 에이전트로 진화하는 기술적 토대를 설명한다. 독자들은 이를 통해 로봇 공학의 미래가 물리적 하드웨어와 지능형 소프트웨어, 그리고 네트워크 인프라의 정교한 오케스트레이션에 달려 있음을 이해하게 될 것이다.

8.1 표 4.2.3-2: 엣지 배포를 위한 로봇 AI 모델 최적화 전략 비교

최적화 기법	핵심 원리	장점	단점 및 과제	주요 적용 사례
양자화 (Quantization)	FP32 → INT8, FP4 (비트 수 감소)	메모리/전력 효율 극대화, 하드웨어 가속 용이	정밀도 손실 가능성, 재학습(QAT) 필요	Jetson Thor (FP4), MobileNet
구조적 가지치기 (Structured Pruning)	불필요한 채널/레이어 제거	연산량 감소, 추론 속도 향상	비정형 가지치기 대비 압축률 낮음	GPT, ResNet 최적화 40
지식 증류 (Distillation)	Teacher 모델 지식을 Student로 전이	경량 모델의 정확도 향상	학습 파이프라인 복잡도 증가	LLM-Planner, VLA 경량화
VLA 특화 경량화 (NanoVLA, EdgeVLA)	Late Fusion, Action Chunking, Autoregression 제거	로봇 제어 특화, 극적인 속도 향상 (최대 52배)	범용성 감소 가능성	모바일 매니퓰레이터 제어 43
확산 정책 최적화 (LightDP)	Denoising Network 압축, 샘플링 축소	고성능 제어 정책의 실시간화	생성 품질과 속도의 트레이드오프	정밀 조립 로봇 46

9. 참고 자료

HOW CLOUD ROBOTICS AFFECTS COMPLEX AND TEDIOUS …, https://www.ijert.org/research/NCRTCA-PID-081.pdf
Network Offloading Policies for Cloud Robotics: a Learning-based …, https://www.roboticsproceedings.org/rss15/p63.pdf
Integrating Edge Computing with Cloud Robotics for Real … - Vyom IQ, https://www.vyomiq.io/blog/integrating-edge-computing-with-cloud-robotics-for-real-time-performance
Cloud robotics: 5G paves the way for mass-market automation, https://www.ericsson.com/en/reports-and-papers/ericsson-technology-review/articles/cloud-robotics-5g-paves-the-way-for-mass-market-automation
Edge Computing Architectures for Real-Time Robotic Control and …, https://www.researchgate.net/publication/390897926_Edge_Computing_Architectures_for_Real-Time_Robotic_Control_and_Decision-Making
NVIDIA Jetson AGX Orin GPU: Technical Specs, Features, and Use …, https://www.server-parts.eu/post/nvidia-jetson-agx-orin-gpu-specs
NVIDIA Jetson AGX Orin | Datasheet - OpenZeka, https://openzeka.com/en/wp-content/uploads/2022/08/Jetson-AGX-Orin-Module-Series-Datasheet.pdf
Nvidia Jetson AGX Orin Development Kit - Kubii, https://www.kubii.com/en/development-kit/4010-nvidia-jetson-agx-orin-development-kit-3272496315051.html
NVIDIA® Jetson AGX Thor™ Developer Kit - EDOM Technology, https://www.edomtech.com/en/product-detail/nvidia-jetson-agx-thor-dev-kit/
Jetson Thor | Advanced AI for Physical Robotics - NVIDIA, https://www.nvidia.com/en-au/autonomous-machines/embedded-systems/jetson-thor/
NVIDIA Jetson AGX Thor Developer Kit - Open Zeka, https://openzeka.com/wp-content/uploads/2025/07/NVIDIA-Jetson-AGX-Thor-Developer-Kit.pdf
NVIDIA Jetson Thor - NVIDIA -Macnica, https://www.macnica.co.jp/en/business/semiconductor/manufacturers/nvidia/products/147825/
HEXAGON DSP: AN ARCHITECTURE OPTIMIZED FOR MOBILE …, https://pages.cs.wisc.edu/~danav/pubs/qcom/hexagon_micro2014_v6.pdf
Qualcomm Hexagon - Wikipedia, https://en.wikipedia.org/wiki/Qualcomm_Hexagon
Qualcomm Hexagon NPU | Snapdragon NPU Details, https://www.qualcomm.com/processors/hexagon
Qualcomm® Robotics RB5 Development Kit - Thundercomm, https://www.thundercomm.com/product/qualcomm-robotics-rb5-development-kit/
Qualcomm Robotics RB5 & RB6 Platform Support | RidgeRun, https://developer.ridgerun.com/wiki/index.php/Qualcomm_Robotics_RB5
Qualcomm® Robotics RB6 Platform - Thundercomm, https://www.thundercomm.com/product/qualcomm-robotics-rb6-development-kit/
Qualcomm Robotics RB6 Platform, https://www.qualcomm.com/internet-of-things/products/robotics-rb6-platform
Hailo-8 M.2 AI Accelerator Module (26 TOPS) - Core Electronics, https://core-electronics.com.au/hailo-8-m2-ai-accelerator-module-26-tops.html
HAILO-8™ AI Module - UP Bridge the Gap - Edge AI, https://up-board.org/hailo-8/
Hailo-8 Acce A, based on the 26TOPS Hailo-8 AI processor …, https://www.waveshare.com/hailo-8-acce-a.htm
Horizon Robotics - Wikipedia, https://en.wikipedia.org/wiki/Horizon_Robotics
Horizon Robotics Journey™ 5, https://lxftest.horizon.cc/journey-5/
Horizon Robotics Journey™ Series, https://en.horizon.auto/horizon-journey-series/
Horizon Robotics launches Journey 5 chip for smart driving | Gasgoo, https://autonews.gasgoo.com/articles/news/horizon-robotics-launches-journey-5-chip-for-smart-driving-70018466
TensorRT vs TVM - NVIDIA Developer Forums, https://forums.developer.nvidia.com/t/tensorrt-vs-tvm/79964
Revolutionizing Real-Time AI with NVIDIA TensorRT, DRP-AI TVM …, https://www.tmasolutions.com/insights/ai-on-edge-device-revolutionizing-real-time-ai-with-nvidia-tensorrt-drp-ai-tvm-and-snpe
“Top 10 Edge AI Frameworks for 2025: Best Tools for Real-Time, On …, https://blog.huebits.in/top-10-edge-ai-frameworks-for-2025-best-tools-for-real-time-on-device-machine-learning/
Accelerating Deep Learning Inference: A Comparative Analysis of …, https://www.mdpi.com/2079-9292/14/15/2977
Isaac ROS (Robot Operating System) - NVIDIA Developer, https://developer.nvidia.com/isaac/ros
What is the NVIDIA® Isaac ROS? How to get started with it? - e-con …, https://www.e-consystems.com/blog/camera/products/what-is-the-nvidia-isaac-ros-how-to-get-started-with-it/
NVIDIA Isaac ROS in under 5 minutes - Intermodalics, https://www.intermodalics.ai/blog/nvidia-isaac-ros-in-under-5-minutes
Hardware Acceleration framework for ROS - GitHub, https://raw.githubusercontent.com/ros-acceleration/community/master/slides/HAWG10.pdf
Hardware Accelerating ROS 2 Perception on the Qualcomm RB5 …, https://news.accelerationrobotics.com/ros2-qualcomm-hardware-acceleration/
Getting started with Qualcomm® Robotics ROS, https://www.qualcomm.com/developer/project/robotics-ros
Why Edge AI Inferencing is Crucial | Exxact Blog, https://www.exxactcorp.com/blog/deep-learning/why-edge-ai-inferencing-is-crucial
Joint Pruning, Quantization and Distillation for Efficient Inference of …, https://blog.openvino.ai/blog-posts/joint-pruning-quantization-and-distillation-for-efficient-inference-of-transformers
Benchmarking Deep Neural Networks on NVIDIA Jetson AGX Orin …, https://antmicro.com/blog/2022/12/benchmarking-dnn-on-nvidia-jetson-agx-orin-with-kenning/
(PDF) Knowledge Distillation and Structured Pruning of GPT Models …, https://www.researchgate.net/publication/392944336_Knowledge_Distillation_and_Structured_Pruning_of_GPT_Models_for_Efficient_Edge_Deployment_in_Question_Answering_Systems
Pruning and Distilling LLMs Using NVIDIA TensorRT Model Optimizer, https://developer.nvidia.com/blog/pruning-and-distilling-llms-using-nvidia-tensorrt-model-optimizer/
LLM Model Pruning and Knowledge Distillation with NVIDIA NeMo …, https://developer.nvidia.com/blog/llm-model-pruning-and-knowledge-distillation-with-nvidia-nemo-framework/
NanoVLA: Routing Decoupled Vision-Language Understanding for …, https://openreview.net/forum?id=yeHBrNVZoV
[2507.14049] EdgeVLA: Efficient Vision-Language-Action Models, https://arxiv.org/abs/2507.14049
(PDF) EdgeVLA: Efficient Vision-Language-Action Models, https://www.researchgate.net/publication/393852110_EdgeVLA_Efficient_Vision-Language-Action_Models/download
On-Device Diffusion Transformer Policy for Efficient Robot … - arXiv, https://arxiv.org/abs/2508.00697
On-Device Diffusion Transformer Policy for Efficient Robot …, https://openaccess.thecvf.com/content/ICCV2025/papers/Wu_On-Device_Diffusion_Transformer_Policy_for_Efficient_Robot_Manipulation_ICCV_2025_paper.pdf
mathrm{R}^{3}$: On-Device Real-Time Deep Reinforcement …, https://www.researchgate.net/publication/378025867_mathrmR3_On-Device_Real-Time_Deep_Reinforcement_Learning_for_Autonomous_Robotics
R^3: On-device Real-Time Deep Reinforcement Learning for …, https://cris.ucr.edu/colloquia/2023/11/13/r3-device-real-time-deep-reinforcement-learning-autonomous-robotics
R^3: On-device Real-Time Deep Reinforcement Learning for … - arXiv, https://arxiv.org/abs/2308.15039
Real-Time On-Device Continual Learning Based on a Combined …, https://www.mdpi.com/1424-8220/25/2/427
Survey on Replay-Based Continual Learning and Empirical … - MDPI, https://www.mdpi.com/2227-7390/13/14/2257
Interactive continual learning for robots: a neuromorphic approach, https://www.researchgate.net/publication/363368264_Interactive_continual_learning_for_robots_a_neuromorphic_approach
Design and Development of Autonomous Robotic Arm Using TinyML, https://ijrpr.com/uploads/V6ISSUE5/IJRPR45181.pdf
TinyML Speech Classification Embedded Ai Module for Hand …, https://ieeexplore.ieee.org/document/10962866/
This is a list of interesting papers and projects about TinyML. - GitHub, https://github.com/gigwegbe/tinyml-papers-and-projects
Federated Deep Reinforcement Learning for Privacy-Preserving …, https://arxiv.org/pdf/2505.12153
Federated Deep Reinforcement Learning for Privacy-Preserving …, https://arxiv.org/abs/2505.12153
Federated learning for privacy-preserving AI in human–robot …, https://www.emerald.com/jimse/article/6/2/210/1253350/Federated-learning-for-privacy-preserving-AI-in
(PDF) Federated learning for privacy-preserving AI in human–robot …, https://www.researchgate.net/publication/391052079_Federated_learning_for_privacy-preserving_AI_in_human-robot_collaboration_for_smart_manufacturing